我们考虑了学习eoiSodic安全控制政策的问题,这最小化了客观函数,同时满足必要的安全约束 - 都在学习和部署期间。我们使用具有未知转换概率函数的有限范围限制的Markov决策过程(CMDP)的有限范围限制的Markov决策过程(CMDP)制定了这种安全约束的强化学习(RL)问题。在这里,我们将安全要求造型为关于在所有学习集中必须满足的预期累计成本的限制。我们提出了一种基于模型的安全RL算法,我们称之为乐观 - 悲观的安全强化学习(OPSRL)算法,并表明它实现了$ \ TINDE {\ MATHCAL {O}}(S ^ {2} \ SQRT {啊^ {7} k} /(\ bar {c} - \ bar {c} _ {b}))$累积遗憾在学习期间没有违反安全限制,其中$ S $是州的数量,$ a $动作数量,$ H $是地平线长度,$ k $是学习剧集的数量,$(\ bar {c} - \ bar {c} _ {b})$是安全差距,即,约束值与已知安全基线政策的成本之间的差异。缩放为$ \ tilde {\ mathcal {o}}(\ sqrt {k})$与学习期间可能违反约束的传统方法相同,这意味着我们的算法尽管提供了一个额外的遗憾安全保证。我们的主要思想是利用乐观的探索方法,以悲观的约束实施来学习政策。这种方法同时激励了未知国家的探索,同时对访问可能违反安全限制的国家施加罚款。我们通过对传统方法的基准问题进行评估来验证我们的算法。
translated by 谷歌翻译
Automated emotion recognition in speech is a long-standing problem. While early work on emotion recognition relied on hand-crafted features and simple classifiers, the field has now embraced end-to-end feature learning and classification using deep neural networks. In parallel to these models, researchers have proposed several data augmentation techniques to increase the size and variability of existing labeled datasets. Despite many seminal contributions in the field, we still have a poor understanding of the interplay between the network architecture and the choice of data augmentation. Moreover, only a handful of studies demonstrate the generalizability of a particular model across multiple datasets, which is a prerequisite for robust real-world performance. In this paper, we conduct a comprehensive evaluation of popular deep learning approaches for emotion recognition. To eliminate bias, we fix the model architectures and optimization hyperparameters using the VESUS dataset and then use repeated 5-fold cross validation to evaluate the performance on the IEMOCAP and CREMA-D datasets. Our results demonstrate that long-range dependencies in the speech signal are critical for emotion recognition and that speed/rate augmentation offers the most robust performance gain across models.
translated by 谷歌翻译
第六版的AI城市挑战赛特别关注了两个领域的问题,在计算机视觉和人工智能的交集中具有巨大的解锁潜力:智能交通系统(ITS),以及实体和砂浆零售业务。 2022年AI City Challenge的四个挑战赛收到了来自27个国家 /地区254个团队的参与请求。轨道1地址的城市规模多目标多摄像机(MTMC)车辆跟踪。轨道2地址为基于天然语言的车辆轨道检索。 Track 3是一条全新的自然主义驾驶分析的轨道,该轨道是由安装在车辆内部的几台相机捕获的,该摄像头专注于驾驶员安全,而任务是对驾驶员的操作进行分类。 Track 4是另一个旨在仅使用单个视图摄像头实现零售商店自动结帐的新轨道。我们发布了两个基于不同方法的领导董事会成员提交,包括比赛的公共负责人委员会,不允许使用外部数据,以及用于所有提交结果的总管委员会。参与团队的最高表现建立了强大的基线,甚至超过了拟议的挑战赛中的最先进。
translated by 谷歌翻译
已知预测的集合,而是比单独采取的个体预测更好地执行更好。但是,对于需要重型计算资源的任务,\ texit {例如}语义细分,创建需要单独培训的学习者的集合几乎没有易行。在这项工作中,我们建议利用集合方法提供的性能提升,以增强语义分割,同时避免了集合的传统训练成本。我们的自我集成框架利用了通过特征金字塔网络方法生产的多尺度功能来提供独立解码器,从而在单个模型中创建集合。类似于集合,最终预测是每个学习者所做的预测的聚合。与以前的作品相比,我们的模型可以训练结束,减轻了传统的繁琐多阶段培训的合奏。我们的自身融合框架优于当前最先进的基准数据集ADE20K,Pascal Context和Coco-Stuff-10K用于语义细分,并且在城市景观竞争。代码将在Github.com/walbouss/senformer上使用。
translated by 谷歌翻译
对抗性学习的研究主要集中在均匀的非结构化数据集上,这些数据集通常自然地映射到问题空间中。将功能空间攻击在异质数据集中倒入问题空间更具挑战性,尤其是找到要执行的扰动的任务。这项工作提出了一种正式的搜索策略:“特征重要的指导攻击”(FIGA),它在异质表格数据集的特征空间中发现扰动以产生逃避攻击。我们首先在特征空间中以及在问题空间中演示FIGA。 FIGA不对捍卫模型的学习算法没有任何先验知识,也不需要任何梯度信息。 FIGA假定对特征表示形式的知识和辩护模型数据集的平均特征值。通过在目标类方向上扰动输入的最重要特征,FIGA利用具有重要的排名。虽然FIGA在概念上与使用特征选择过程(例如模仿攻击)的其他作品相似,但我们将具有三个可调参数的攻击算法形式化,并在表格数据集上研究FIGA的强度。我们通过在四个不同的表网络钓鱼数据集中训练的网络钓鱼检测模型和一个平均成功率为94%的金融数据集来证明FIGA的有效性。我们通过限制可能在网络钓鱼域中有效且可行的扰动,将FIGA扩展到网络钓鱼问题空间。我们生成有效的对抗网站,这些网站在视觉上与其不受干扰的对应物相同,并使用它们来攻击六个表格的ML模型,达到13.05%的平均成功率。
translated by 谷歌翻译